67 research outputs found

    BagBoosting for tumor classification with gene expression data

    Get PDF
    Motivation: Microarray experiments are expected to contribute significantly to the progress in cancer treatment by enabling a precise and early diagnosis. They create a need for class prediction tools, which can deal with a large number of highly correlated input variables, perform feature selection and provide class probability estimates that serve as a quantification of the predictive uncertainty. A very promising solution is to combine the two ensemble schemes bagging and boosting to a novel algorithm called BagBoosting. Results: When bagging is used as a module in boosting, the resulting classifier consistently improves the predictive performance and the probability estimates of both bagging and boosting on real and simulated gene expression data. This quasi-guaranteed improvement can be obtained by simply making a bigger computing effort. The advantageous predictive potential is also confirmed by comparing BagBoosting to several established class prediction tools for microarray data. Availability: Software for the modified boosting algorithms, for benchmark studies and for the simulation of microarray data are available as an R package under GNU public license at http://stat.ethz.ch/~dettling/bagboost.htm

    Boosting for tumor classification with gene expression data

    Get PDF
    Motivation: Microarray experiments generate large datasets with expression values for thousands of genes but not more than a few dozens of samples. Accurate supervised classification of tissue samples in such high-dimensional problems is difficult but often crucial for successful diagnosis and treatment. A promising way to meet this challenge is by using boosting in conjunction with decision trees. Results: We demonstrate that the generic boosting algorithm needs some modification to become an accurate classifier in the context of gene expression data. In particular, we present a feature preselection method, a more robust boosting procedure and a new approach for multi-categorical problems. This allows for slight to drastic increase in performance and yields competitive results on several publicly available datasets. Availability: Software for the modified boosting algorithms as well as for decision trees is available for free in R at http://stat.ethz.ch/~dettling/boosting.html Contact: [email protected] * To whom correspondence should be addresse

    Boosting for tumor classification with gene expression data

    Get PDF
    Erworben im Rahmen der Schweizer Nationallizenzen (http://www.nationallizenzen.ch

    Supervised clustering of genes

    Get PDF
    BACKGROUND: We focus on microarray data where experiments monitor gene expression in different tissues and where each experiment is equipped with an additional response variable such as a cancer type. Although the number of measured genes is in the thousands, it is assumed that only a few marker components of gene subsets determine the type of a tissue. Here we present a new method for finding such groups of genes by directly incorporating the response variables into the grouping process, yielding a supervised clustering algorithm for genes. RESULTS: An empirical study on eight publicly available microarray datasets shows that our algorithm identifies gene clusters with excellent predictive potential, often superior to classification with state-of-the-art methods based on single genes. Permutation tests and bootstrapping provide evidence that the output is reasonably stable and more than a noise artifact. CONCLUSIONS: In contrast to other methods such as hierarchical clustering, our algorithm identifies several gene clusters whose expression levels clearly distinguish the different tissue types. The identification of such gene clusters is potentially useful for medical diagnostics and may at the same time reveal insights into functional genomics

    Modelling customer lifetime value in contractual settings

    Get PDF
    Service provision is often governed by a contract (e.g., newspaper subscriptions, phone contracts, and credit agreements). Typically, such a contract includes rules that influence the dynamics of the customer in the marketplace. Typical examples are minimum contract durations, or fixed time instants for contract termination. The goal of these rules is to increase the future total profit gained from the customer, which is usually denoted with the term customer lifetime value (CLV). We analyse the problem of calculating the CLV under general contract structures. We show that classical Markov models for describing the customer dynamics are not appropriate and may lead to huge errors in the CLV. We propose a semi-Markov formulation which leads to substantially better results. We apply the framework to data of newspaper subscription

    Customers as investment objects : a new perspective on marketing

    Get PDF
    Customers have always considered as one of the most important assets of a firm. The concept of Customer Equity (Rust, Zeithaml, Lemon, 2000) has given this idea a conceptual and methodological foundation. Marketing can then be seen as the attempt to maximize Customer Equity by corresponding activities. For doing this, we focus on the Customer Lifetime Value (CLV) and ways for its maximization. While the CLV has become a well-studied concept in marketing with a lot of literature coverage, much less work has been done in developing methods how to increase CLV. As an active increase in CLV always requires some activities, it is coupled with costs, and a cost-benefit analysis has to be made. We develop a new model for such a cost-benefit-analysis, by considering a customer as an investment object: A customer treatment incurs costs today, while, on the other hand, it generates returns in the future, over the lifecycle of the customer. Since a customer can receive different forms of treatment, there are in fact different investment options available. When trying to increase the CLV, these options have to be compared to each other. By formalizing this approach in a quantitative model, we create a framework for describing the cost-benefit profile of an individual customer. With this framework, optimum treatments can be identified, and the optimum height of investment into a single customer can be determined

    Searching for differentially expressed gene combinations

    Get PDF
    We propose 'CorScor', a novel approach for identifying gene pairs with joint differential expression. This is defined as a situation with good phenotype discrimination in the bivariate, but not in the two marginal distributions. CorScor can be used to detect phenotype-related dependencies and interactions among genes. Our easily interpretable approach is scalable to current microarray dimensions and yields promising results on several cancer-gene-expression datasets

    Neue Erkenntnisse zum Mobilitätsverhalten dank Data Mining

    Get PDF
    Unter Data Mining versteht man im engeren Sinn das systematische (in der Regel automatisierte oder halbautomatisierte) Entdecken und Extrahieren von vorher unbekannten statistischen Informationszusammenhängen aus grossen Datenmengen. Im deutschen Sprachgebrauch steht Data Mining oft für den ganzen Analyse-Prozess, der auch die Vorbereitung der Daten sowie die Bewertung der Resultate umfasst. Data Mining wird in verschiedenen Bereichen erfolgreich eingesetzt. Anwendungsbeispiele aus schweizerischen Verkehrsplanungen fehlen aber bisher weitgehend. Ziel der Forschungsarbeit war es, den praktisch tätigen Verkehrsplaner mit dem Prozess und den Methoden von Data Mining vertraut zu machen und die Möglichkeiten von Data Mining als Hilfsmittel in der Verkehrsplanung auszuloten. Data Mining wird als iterativer, lernender Prozess dargestellt, in welchem die Phasen von der Fragestellung über das Sammeln und Aufbereiten der Daten, die Modellierung und die Auswertung der Ergebnisse bis zu deren Umsetzung in die Praxis mehrfach durchlaufen werden. In dieser Arbeit wird dieser Prozess genauer beschrieben und ein Überblick über eine Auswahl von Methoden, die in der Modellierung verwendet werden, gegeben. Beispiele aus der Literatur illustrieren das breite Anwendungsspektrum von Data Mining in der Verkehrsplanung (z.B. Verkehrserzeugung, Autobesitz, Verkehrsmittel- und Routenwahl oder Klassifikation von Mobilitätsmustern). Bei den beschriebenen Beispielen handelt es sich um Forschungsarbeiten. Deren Ergebnisse haben noch kaum breiten Eingang in die Praxis gefunden. An Fallbeispielen wird demonstriert, wie Data Mining in der Praxis angewendet werden kann. Als Datensätze werden der Mikrozensus Verkehr 2005 und Raumstrukturdaten des Bundesamtes für Statistik verwendet. Die Fallbeispiele behandeln die Analyse der Häufigkeit von Wegeketten, die Vorhersage der Anzahl Wegeketten pro Person und Tag, die Klassifikation nach Mobilitätstypen sowie die Vorhersage des Mobilitätstyps einer Person aufgrund sozio-demographischer Merkmale und Raumstrukturinformationen zu den Wohn- und Zielorten. Aus der grossen Vielfalt von Software-Lösungen für Data Mining wird eine Auswahl proprietärer und frei verfügbarer Pakete, welche für den Einsatz in der Verkehrsplanung als grundsätzlich geeignet beurteilt werden, grob und ohne Wertung beschrieben. Die Studie kommt zum Schluss, dass Data Mining in der Verkehrsplanung sicher nutzbringend anwendbar ist, dass aber nicht – wie vielleicht erhofft – automatisch auf alle Fragen gute Antworten erwartet oder ohne Dazutun des Anwenders aus vorhandenen Datensätzen neue Erkenntnisse gewonnen werden können. Empfehlenswerte Einsatzgebiete für Data Mining in der Verkehrsplanung sind beispielsweise: Klassifikation, z.B. des Mobilitätsverhaltens, Visualisierung komplexer mehrdimensionaler Datensätze zum raschen Erkennen von Mustern resp. Clustern, rasche und automatische Erkennung der (aus statistischer Sicht) wichtigsten Prädikatorendes Mobilitätsverhaltens, Analyse der Entscheidungsprozesse, z.B. bei der Verkehrsteilnahme. Zusammenhänge, die mit Data Mining Methoden extrahiert werden, sind grundsätzlich Daten-getrieben und müssen keine Kausalitäten widerspiegeln. Deshalb wird empfohlen, aus Kausalitätsüberlegungen abgeleitete Modelle weiterhin mit statistischen Methoden an die Daten anzupassen. Konventionelle Modellansätze und Data Mining sollen als sich ergänzende und gegenseitig unterstützende Methoden eingesetzt werden. Um Data Mining zukünftig auch in der Verkehrsplanung nutzbringend einsetzen zu können, bedarf es keiner weiteren Random Forest Forschung. Vielmehr sind möglichst viele praktische Anwendungen erwünscht, mit denen Verkehrsplaner und Data Mining Experten in interdisziplinärer Zusammenarbeit Erfahrungen sammeln und weitergeben können
    • …
    corecore